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摘要 : 【 目的 ] 针对 基于 机 咒 学 习 的 文本 情感 分 类 研究 中 的 文本 特征 表示 向 量 高 维 性 问题 ， 提出 BPSO 与 随机 子 
空间 方法 结合 的 选择 性 集成 算法 。[ 方法 ] 在 分 析 BPSO 与 随机 子 空间 原理 的 基础 上 给 出 BPSO 随机 子 空 间 的 模 


型 框架 及 算法 流程 。 将 中 文 评论 语 料 进 行 特征 化 表示 后 , 使 用 BPSO 随机 子 空间 进行 实验 验证 和 分 析 。[ 结果 】 


通过 改变 随机 子 空间 中 子 空间 率 的 取 值 , 研究 标准 随机 子 空间 与 BPSO 随机 子 空 间 选 择 性 集成 对 分 类 准确 率 和 


系统 差异 度 的 影响 , 结果 表明 BPSO 随机 子 空间 无 论 在 分 类 准确 率 还 是 在 系统 差异 度 上 均 高 于 标准 随机 子 空间 。 
【局 限 ] 尚未 在 英文 数据 上 进行 验证 。[ 结论 ] 将 BPSO 应 用 于 随机 子 空间 方法 构成 一 种 新 颖 的 选择 性 集成 模型 ， 
不 仅 解决 了 特征 向 量 空间 高 维 性 的 问题 ， 而 且 提 高 了 分 类 的 准确 率 和 泛 化 能 力 ,为 中 文 文本 情感 分 类 提供 了 有 


效 的 方法 。 
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1 引 Ë 


互联 网 提供 给 人 们 丰富 的 信息 资源 ,其 中 表达 看 
法 、 意 见 、 建 议 等 的 主观 性 文本 (如 科技 评论 、 产 品评 
论 、 体 育 评论 、 时 事 评论 、 博 客 、 影 视 评 论 、 新 闻 评 
论 、 军 事 评 论 、 音 乐 评 论 、 股 票 评论 等 ) 是 比重 较 大 且 
十 分 重要 的 部 分 。 这 些 主观 信息 是 针对 特定 对 象 而 发 
表 的 观点 、 态 度 、 意 见 、 立 场 等 , 有 强烈 的 个 人 情感 
色彩 ,文本 情感 分 类 是 针对 主观 性 文本 进行 自动 分 析 、 
处 理 归纳 的 技术 。 文 本 情感 分 类 技术 在 电子 商务 、 电 
子 政务 、 信 息 预 测 等 领域 有 重要 的 应 用 价值 。 

目前 用 于 文本 情感 分 类 研究 的 主流 方法 是 机 央 学 
J, 主要 针对 文本 情感 分 类 任务 的 特征 表示 和 分 类 模 
型 的 应 用 与 改进 上 。 特 征 表示 则 在 找到 能 最 大 程度 代 
表 句 子 语义 、 句 法 的 特征 项 。 目 前 用 于 文本 特征 表示 
的 有 一 元 词 (Unigram) 、 多 元 词 (N-grams) 、 词 性 


(Part-of-Speech, POS) 、 词 的 关系 特征 、 基 于 规则 的 特 
征 、 结 合 情 感 词典 的 特征 和 社交 网 络 特征 等 上 。 基 于 
依存 语法 的 依存 句法 关系 特征 因 其 能 够 很 好 地 表达 名 
子 句法 和 词语 间 修 饰 关 系 ， 而 被 用 于 文本 情感 分 类 的 
特征 表示 中 ,取得 了 比 常用 特征 更 高 的 分 类 精度 方 。 在 
分 类 模型 方面 ,传统 的 分 类 算法 有 支持 向 量 机 、 朴 素 
DIFER, AES. k 近邻 、 决 策 树 算法 等 。 分 类 
算法 用 于 文本 情感 分 类 任务 的 优 劣 是 一 个 无 定论 的 问 
题 。 集 成 学 习 利用 “多 个 分 类 器 决策 结果 的 可 信和 度 高 于 
单个 分 类 器 决策 结果 ”的 思想 形成 一 种 新 的 文本 分 类 
模式 。 利 用 传统 的 分 类 算法 作为 单个 分 类 器 的 训练 算 
法 , Wang 等 比较 了 三 种 不 同 集成 学 习 基 分 类 需 的 生成 
方法 , BI Boosting, Bagging 和 随机 子 空间 方法 , 将 三 
种 方法 的 基 分 类 器 分 别 用 朴素 贝 叶 斯 、 最 大 粹 、 决 策 
树 近邻 和 支持 向 量 机 分 类 算法 进行 训练 , 得 出 集成 
后 的 系统 分 类 准确 率 高 于 单个 分 类 器 的 分 类 准确 率 的 
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结论 操 。 集 成 学 习 用 于 文本 情感 分 类 的 研究 中 ,引入 
Boosting 和 Baggging 方法 较 多 ， 而 随机 子 空 间 
(Random Subspace) 方 法 较 少 , 针对 这 一 问题 ， 且 结合 
随机 子 空间 方法 更 适合 文本 情感 分 类 高 维 性 数据 的 特 
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此 对 于 高 维 数据 有 更 好 的 适用 性 口 。 

随机 子 空间 由 学 者 Ho 1998 年 提出 , 其 基本 思 
想来 源 于 随机 判别 分 析 中 。 随 机 子 空间 将 所 有 特征 作 
为 一 个 大 的 集合 ， 从 中 随机 选择 部 分 特征 形成 多 个 特 
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点 ，Wang 等 提出 基于 词性 分 析 基 础 上 的 随机 子 空间 情 
感 分 类 方法 ， 以 支持 向 量 机 (SVM) 作 为 基 学 习 器 ， 此 方 
法 取得 了 比 其 他 分 类 器 更 好 的 实验 结果 四。 


征 子 集 。 文 本 被 表示 成 多 个 特征 子 集 代表 的 特征 向 量 
空间 模型 (Vector Space Model, VSM). 通过 分 类 算法 学 
习 形 成 基 分 类 融 。 基 分 类 器 从 不 同 特征 子 集 只 能 学 习 


以 上 研究 大 多 数 集中 于 英文 文本 ， 鉴 于 中 文 语言 
表达 的 复杂 性 , 需要 更 加 能 够 代表 句子 语义 的 特征 进 
行 表 示 。 针 对 中 文 文本 研究 较 少 的 问题 , 并 结合 目前 
的 基于 机 器 学 习 的 文本 情感 分 类 研究 现状 , 本 文 在 依 
存 句 法 解析 表示 句子 特征 的 基础 上 采用 随机 子 空间 方 
法 对 中 文 文本 进行 情感 分 类 研究 。 并 在 标准 的 随机 子 
空间 方法 上 采用 选择 性 集成 机 制 。 本 文 将 BPSO 
(Binary Particle Swarm Optimization) 算 法 用 于 随机 子 
空间 方法 中 , 提出 基于 BPSO 算法 的 随机 子 空间 方法 
(缩写 为 RS_BPSO), 用 于 文本 情感 分 类 任务 中 。 通 过 
选取 不 同 子 空 间 率 研究 离散 二 进 制 粒 子 群 对 随机 子 空 
间 集 成 学 习 准 确 率 和 差异 度 的 影响 。 


2 BPSO 随机 子 空间 方法 


2.4 随机 子 空间 

随机 子 空间 (Random Subspace, RS) 是 集成 学 习 中 
的 一 种 。 集 成 学 习 通 过 构建 并 结合 多 个 学 习 器 完成 学 
习 任 务 , 有 时 也 被 称 为 多 分 类 央 系 统 、 基 于 委员 会 的 
学 习 等 。 集 成 学 习 通过 将 多 个 学 习 器 进行 结合 , WT 
获得 比 单一 学 习 器 显著 优越 的 泛 化 性 能 。 集 成 学 习 的 
一 般 结构 是 先 产 生 一 组 “个 体 学 习 器 ”， 再 用 某 种 策略 
将 其 结合 起 来 , 产生 的 个 体 学 习 器 亦 称 “ 基 学 习 咒 ”。 
较 早 进行 集成 学 习 研究 的 是 Dasarathy 等 中 之 后 集成 
学 习 成 为 机 器 学 习 一 个 重要 的 研究 方向 1。 

按照 个 体 学 习 器 生成 方式 ， 目 前 的 集成 学 习 方法 
大 致 可 分 为 两 大 类 : 基于 数据 划分 的 方法 (Data 
Partitioning Methods) 和 基于 特征 划分 的 方法 (Attribute 
Partitioning Methods)。 其 中 基于 数据 划分 的 方法 通过 
处 理 训练 样本 产生 多 个 样本 集 ， 主 要 有 Bagging 和 
Boosting 方法 。 基 于 特征 划分 的 方法 把 数据 特征 划分 
成 子 集 ， 用 作 不 同 分 类 器 的 输入 向 量 , 每 次 使 用 一 个 
特征 子 集 。 主 要 有 Random Subspace 等 。Random 
Subspace 主要 通过 随机 抽取 特征 子 集 构造 基 学 习 器 ， 
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到 部 分 样本 信息 , 通过 融合 多 个 分 类 器 以 利用 所 有 的 
样本 信息 。 因 此 ,随机 子 空间 不 仅 能 有 效 降低 特征 维 
数 ,同时 可 以 结合 多 个 基 分 类 器 的 优势 。 原 始 数据 中 
包含 的 信息 通过 多 个 不 同 子 空间 的 基 分 类 器 融合 后 得 
以 保持 。 

随机 子 空间 运用 自助 法 (Bootstrap Method) 在 所 有 
特征 集中 随机 挑选 , 形成 多 个 不 同 的 特征 子 空 间 。 对 
多 个 不 同 的 子 空间 用 机 器 学 习 分 类 算法 进行 训练 得 到 
多 个 基 分 类 器 。 基 分 类 器 的 融合 方式 可 以 是 多 数 投票 
法 、 乘 法 规则 等 。 本 文采 用 多 数 投票 法 作为 结果 的 融 
合 结果 。 其 计算 方法 为 : 假设 有 7 个 基 分 类 器 , 对 输入 
样本 的 分 类 结果 分 别 为 h(x,)，x 对 应 第 1 个 基 分 
类 需 的 输入 ,集成 系统 的 分 类 结果 为 媚 K) 。7 为 标签 
类 别 集合 ， 当 ?> 对 了 中 所 有 值 进行 逐一 取 值 时 ,对 y 
值 与 基 分 类 器 结果 相等 的 个 数 进行 计数 ， 取 计数 最 多 
H y 值 为 最 终 的 分 类 结果 , BD HQX) 的 值 ， 如 公式 (1) 
所 示 口 。 


T 
H(X) = argmax,.y 9 My = hx) (1) 


{=l 

其 中 , 1 (a) 为 示 性 函数 ,如果 w 为 真 , 则 1 (a)=1; 
否则 1 (a) =0。 

衡量 集成 学 习 系 统 好 坏 的 两 个 重要 指标 是 分 类 准 
确 率 和 系统 差异 度 。 互 补 且 精 确 的 分 类 器 集成 得 到 的 
系统 会 更 优 , 如 果 基 分 类 需 结 果 相 似 , 则 系统 谤 化 能 
力 不 会 得 到 提高 ; 如 果 基 分 类 器 的 结果 是 多 样 化 的 ， 
一 个 被 某 分 类 器 错 分 的 样本 可 以 被 另外 一 些 分 类 器 正 
确 分 类 , 则 可 以 得 到 正确 结果 1。 

在 随机 子 空间 方法 中 有 个 重要 的 参数 一 一 子 空间 
维 数 的 选取 , 一 般 用 选取 的 特征 数目 与 特征 总 数 的 百 
分 比 表 示 , 这 个 比例 称 为 子 空间 率 (Subspace Rate), 用 
k(0-k 7 表示 。 

假设 文本 被 表示 为 特征 维 数 为 DD 的 向 量 空间 。 对 
所 有 的 特征 维 数 D ,运用 自助 法 在 所 有 特征 集中 随机 


挑选 , 形成 n 个 不 同 的 特征 子 空间 。 根 据 子 空间 率 k, 
得 出 特征 子 集 维 数 为 kxD。 

为 了 增强 或 者 调整 系统 差异 度 ,通常 通过 改变 子 
空间 维 数 占 总 体 向 量 空间 维 数 的 比例 调节 。 关 于 磊 值 
的 选取 范围 ， 目 前 还 没有 统一 的 标准 。 子 空间 率 的 选 
择 与 系统 差异 度 有 密切 的 联系 , 子 空间 率 能 够 影响 系 
统 差 异 度 。 

2.0 ”选择 性 集成 

选择 性 集成 是 指 从 一 批 训练 好 的 基 分 类 器 中 , 选 
择 一 部 分 进行 集成 。 选 择 性 集成 的 概念 由 Zhou 等 提 
出 ， 所 有 分 类 器 个 体 全 部 参加 不 一 定 能 保证 集成 泛 化 
能 力 的 提高 ， 同 时 给 出 选择 性 集成 好 于 全 部 个 体 参 加 
集成 的 理论 分 析 叶 。 选 择 性 集成 实际 上 是 一 个 全 局 优 
化 的 过 程 。 

全 局 优化 是 选择 性 集成 研究 的 重要 方向 ,选择 性 
集成 可 以 方便 地 转化 为 一 个 组 合 优化 的 问题 进行 研 
究 。 粒 子 群 优化 算法 需要 的 参数 少 , 执行 效率 高 ,收敛 
速度 快 ， 而 且 粒 子 群 优化 算法 具备 全 局 搜索 能 力 以 及 
在 解决 组 合 优化 问题 上 的 优势 。 粒 子 群 用 于 集成 学 习 
的 其 他 方法 如 Bagging, Boosting TERLI, HF 
随机 子 空间 的 较 少 。 

2.3 BPSO 算法 

BPSO 算法 是 在 基本 粒子 群 优化 算法 基础 上 基于 
连续 空间 的 一 种 离散 化 方法 , 由 美国 社会 心理 学 家 
Kennedy 和 电气 工程 师 Eberhart 专门 针对 0-1 整数 规 
划 问 题 而 提出 的 59。 

基本 粒子 群 优化 算法 用 公式 (2) 描 述 。 

vit 1) — vj (0) tan Olp; O 7 x; O) 
t cor, (D pg (t) 7 x; (£)) Q) 


xy (t1) 三 xy (f) + vy (t1) 

Hep, vy (toe D 和 六 (+D 分 别 表示 第 ;个 粒子 第 7/ 
维 速 度 在 第 t+1 次 迭代 时 的 速度 和 位 置 。c, 、c2 为 加 
速 常数 , 通常 在 [0,2] 取 值 ，c 调节 粒子 向 个 体 最 优 位 
置 移动 的 步 长 ，c; 调节 粒子 向 全 局 最 优 位 置 飞行 的 步 
Ko nj) 和 ww;(?) 是 区 间 [0,1] 的 随机 取 值 ， 主要 为 增 
加 粒子 飞行 的 随机 性 。p, 和 py 分 别 表示 粒子 第 j 维 的 
个 体 极 值 和 全 局 极 值 。 而 下 一 次 迭代 的 位 置信 息 
x ( - 1) 则 通过 在 原 有 位 置 上 进行 速度 的 转变 得 来 。 

而 在 BPSO F, 每 个 位 置 分 量 x 取 值 要 么 为 1， 


要 么 为 0, 因此 速度 分 量 六 不 再 表示 位 置 变化 的 大 小 ， 
它 反映 的 是 六 取 !1 的 概率 。 使 用 速度 更 新 公式 时 ，v; 
取 值 越 大 ,粒子 的 位 置 分 量 x, 越 有 可 能 取 1; vy 取 值 
越 小 , Ju x. 越 趋向 于 取 0。 为 了 使 概率 值 在 [0，1] 之 间 ， 
BPSO 采用 Logistic 变换 对 vj 进行 处 理 , 如 公式 (3) 所 示 。 


1 
S(v;) Irexpv;) (3) 


Hb, SQ) 表示 位 置 x, 取 1 的 概率 , 粒子 改变 
位 置 值 如 公式 (4) 所 示 。 
| if rand( ) € S(v,) 


0 otherwise 


(4) 


其 中 ,rand( ) 是 一 个 随机 数 ， 从 区 间 [0,1] 分 布 中 
随机 产生 。 为 了 避免 SCv; ) 接 近 0 或 1, 参数 was 作为 
最 大 速度 值 ， 限制 vj 的 范围 。 


3 BPSO 随机 子 空间 算法 


BPSO 随机 子 空间 方法 在 随机 子 空间 训练 得 到 的 
分 类 絮 基 础 上 ,对 基 分 类 器用 BPSO 算法 进行 优化 选 
择 。 基 于 以 上 对 随机 子 空间 和 BPSO 算法 的 分 析 ， 
BPSO 随机 子 空间 方法 的 算法 流程 如 图 1 所 示 。 


随机 划分 特征 空间 D,, Da, =, D, 


| VAEA Classifier, Classifier, …, Classifier, 


E 

| EFREM, x, v. u 
r 

适应 值 计算 


| 计算 个 体 历史 最 优 值 Pbest 


| 计算 群体 历史 最 优 值 Gbest | — 


Y 
更 新 粒子 的 速度 和 位 置 


终止 条 件 满足 ? 
是 


筛选 后 的 基 分 类 器 


图 1 BPSO 随机 子 空间 算法 流程 
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BPSO 随机 子 空间 方法 关键 在 于 BPSO 中 粒子 维 
数 、 适 应 值 函数 的 设计 。 在 BPSO 选择 性 集成 学 习 算 
法 中 , 一 个 粒子 代表 对 基 分 类 央 选 择 的 一 种 方案 。 粒 
子 为 一 个 向 量 , 向 量 维 数 则 为 基 分 类 器 的 个 数 ， 且 与 
基 分 类 需 一 一 对 应 。 回 量 值 取 0 或 者 1。 假 设 基 分 类 
器 个 数 为 万 个 , 则 粒子 被 表示 为 一 个 万 维 向 量 。 如 果 
第 d 个 分 量 的 值 取 1， 则 表示 第 d 个 基 分 类 器 被 选中 ; 
反之 , 如 果 第 4 个 分 量 的 值 取 0, 则 表示 第 4 个 基 分 类 
器 没 被 选中 。 以 10 个 基 分 类 器 为 例 ， 如 果 顺 序 排列 ， 
结果 如 图 2 所 示 。 


0 0 1 1 0 1 0 1 0 1 


图 2 基 学 习 器 选择 结构 示意 


10 个 基 分 类 器 的 编号 分 别 为 1 到 10, 经 过 优化 选 
择 后 的 结果 为 : [0 0 1 1 0 10 10 1], 则 基 分 类 器 被 选 
中 的 编号 分 别 为 3、4、6、8、10。 

在 粒子 群 优 化 算法 中 , 粒子 的 位 置信 息 即 为 基 分 
类 器 是 否 被 选中 信息 ,速度 则 对 应 此 基 分 类 器 被 选中 
的 概率 。 

BPSO 算法 根据 适应 度 函 数 进行 全 局 搜索 。 集 成 
系统 的 分 类 准确 率 和 系统 的 差异 度 是 判别 集成 学 习 系 
统 的 两 个 指标 。 最 常用 的 评价 函数 是 当前 系统 的 预测 
误差 , 根据 系统 分 类 准确 率 判 断 集 成 系统 的 好 坏 。 男 
一 个 评价 指标 是 系统 差异 度 ， 系 统 差异 度 是 衡量 集成 
系统 泛 化 能 力 的 一 个 指标 , 这 是 一 种 间接 方法 , 需要 
合适 的 描述 才能 得 到 好 的 结果 。 本 文 将 采用 系统 分 类 
结果 的 准确 率 作为 BPSO 的 适应 度 函 数 。 


4 实验 设计 


4.1 数据 集 

本 文 数据 集 来 自 数据 党 提供 的 情感 分 析 语 料 ”， 
其 中 包括 酒店 评论 数据 、 图 书评 论 数据 和 笔记 本 电脑 
评论 数据 , 分 别 抓 取 于 携程 旅游 网 、 当 当 网 和 京东 网 。 

三 个 原始 数据 集中 的 每 个 数据 集 均 包 含 4 000 条 
正 向 文本 和 4 000 条 负 向 文本 , 但 都 以 段落 的 形式 存 
在 。 本 文 研究 句子 级 别 的 文本 情感 倾向 , 对 原 有 数据 
进行 相应 处 理 。 


Dhttp://www.datatang.com/data/11936. 
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(1) 对 文档 数据 进行 分 句 处 理 。 以 “n” 和 中 英文 
的 疑问 号 "? ”“2”、 句 号“。”“.” 和 分 号 “; ”“;” 为 断 
名 标识 对 所 有 文档 进行 断 句 。 在 断 句 基础 上 ， 进 行 
去 重 操作 。 

(Q2) 在 原 有 标注 文本 基础 上 对 断 句 后 的 新 文本 进 
4139.0), 删除 不 属于 原 有 类 别 的 句子 。 

(3) 对 三 个 数据 集 进行 随机 抽取 。 

本 文 研究 平衡 数据 的 文本 情感 分 类 ,对 酒店 评论 
数据 抽取 句子 4 000 条 , 包括 2 000 条 正 向 评论 语句 和 
2 000 条 负 向 评论 语句 ; 图 书评 论 数据 2 000 条 , 包括 
1 000 条 正 向 评论 数据 和 1 000 条 负 向 评论 语句 ; 笔记 
本 电脑 评论 数据 1 000 条 , 包括 500 条 正 向 评论 语句 和 
500 条 负 向 评论 语句 。 

以 文献 [四 提出 的 三 元 组 依存 关系 特征 方法 为 基 
础 ,将 中 文 评论 语 料 转 化 为 三 元 组 依存 关系 特征 。 其 


中 , 三 个 数据 得 到 的 特征 总 数 如 表 1 所 示 。 
表 1 三 元 组 依存 关系 特征 个 数 
数据 集 三 元 组 依存 关系 
酒店 140 911 
图 书 66 297 
笔记 本 电脑 28 932 
4.0 评价 指标 


实验 的 评价 指标 采用 平均 分 类 准确 率 和 系统 差异 

度 。 平均 分 类 准确 率 如 公式 (5) 所 示 。 
Accuracy = Ses (5) 
TP+FP+FN+TN 

其 中 , TP(True Positive) 表 示 正 向 情感 文档 被 正确 
判断 的 样本 数 ，TN(True Negative) 表 示 负 向 情感 文档 
被 正确 判断 的 样本 数 , FP(False Positive) 表 示 正 向 情感 
文档 被 错误 判断 的 样本 数 ，FN(False Negative) 表 示 负 
向 情感 文档 被 错误 判断 的 样本 数 。TP、TN、FP、FN 
的 总 和 是 整个 待 分 类 文档 数 。 平 均 分 类 准确 率 数值 越 
高 ， 则 对 文本 的 主观 性 倾向 判断 越 准 确 。 

差异 度 度量 是 集成 学 习 系 统 特有 的 评估 标准 ， 以 
下 将 介绍 常用 的 4 种 成 对 差异 度 度量 : Q 统计 、 相 关系 
数 p 、 不 一 致 度量 dis 和 双 次 失败 度量 DF. 

假设 有 L 个 基 分 类 器 ，C; 和 CiG7=12…… 必 


iz 记分 别 为 两 个 不 同 的 分 类 器 ，N QNT?) 为 分 类 器 
C, 和 Ci 都 对 其 正确 (错误 ) 分 类 的 样 例 数目 ; 
NON?) 为 满足 要 求 的 样 例 数目 ; 分 类 器 CC) 对 
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其 正确 分 类 而 分 类 器 C (C) 对 其 错误 分 类 。 由 此 , 总 
的 样 例 数目 可 以 表示 为 V= NI e NT e NI? LN? LB 
体 如 表 2 中 公式 (6)- 公 式 (9) 所 示 。 


表 2 集成 系统 差异 度 度量 公式 


质量 法 ZA 编号 
NHN _N10N01 
相关 系数 p Py Ja" + Ny?! + Ny + NO yay !? +N) (0) 
不 一 致 度量 dis dis; 2 (N + N9!)/N (8) 
双 次 失败 度量 DF AE (9) 


y 


由 表 2 可 以 看 出 , O 统计 数值 越 大 ， 差 异 度 越 低 ; 
相关 系数 p 与 Q 统计 有 一 样 的 趋势 ; 不 一 致 度量 dis 
关注 两 个 分 类 器 分 类 结果 不 同 的 样本 , 这样 的 样本 越 
多 , 差异 度 越 高 ; 而 双 次 失败 度量 关注 两 个 分 类 器 均 
将 其 分 类 错误 的 样本 ,如 果 这 样 的 样本 越 多 ， 则 准确 
性 和 差异 度 均 达到 最 低 。 

43 ”实验 流程 

为 了 检验 基于 RS BPSO WERE, 实验 将 
RS BPSO 与 标准 RS 得 到 的 分 类 准确 率 和 系统 差异 度 
进行 比较 分 析 。 具 体 的 实验 过 程 如 下 : 

(1) 将 评论 数据 按照 70% 和 30% 的 比例 分 成 训练 
集 和 测试 集 两 部 分 。 

(2) 将 训练 集 和 测试 集 的 文本 转化 成 结构 化 的 三 
元 组 依存 关系 特征 表示 的 特征 向 量 空间 形式 。 

Q) 将 训练 集 和 测试 集 采 用 自助 抽样 法 进行 特征 
子 集 划分 。 

(4) 对 划分 过 的 训练 集 采 用 支持 向 量 机 进行 训练 
得 到 基 分 类 器 。 

(5) 标记 所 有 的 基 分 类 器 , 用 BPSO 算法 对 基 分 
类 器 进行 优化 选择 , 确定 保留 的 基 分 类 器 编号 。 

(6) 将 划分 过 的 测试 集 用 于 保留 的 基 分 类 器 中 ， 
用 多 数 投票 法 将 得 到 的 基 分 类 器 上 的 测试 集 的 结果 进 
行 融合 , 得 到 最 终 的 分 类 结果 。 

随机 子 空间 方法 中 ,随机 选取 子 特征 维 数 由 子 空 
间 率 决定 。 BC kA 0.01. 0.02, 0.03, 0.05 等 4 ME, 
研究 不 同 磊 取 值 对 文本 情感 分 类 准确 率 和 差异 度 的 影 
响 。 三 个 数据 集 在 不 同 的 子 空间 率 取 值 下 , 得 到 的 基 


分 类 需 的 特征 维 数 如 表 3 所 示 。 
表 3 随机 子 空间 方法 下 特征 子 集 维 数 


k 酒店 图 书 笔记 本 电脑 
k=0.01 1 409 663 289 
k=0.02 2818 1326 579 
k=0.03 4227 1 989 868 
k=0.05 7 046 3315 1447 
总 个 数 140 911 66 297 28 932 


表 3 中 , 可 以 看 出 随 着 的 取 值 不 同 , 不 同 的 数据 
集 特征 维 数 由 万 维 以 上 降低 到 千 维 或 者 百 维 。 以 酒店 
评论 数据 为 例 ， 当 值 取 0.01 时 ， 基 分 类 器 中 用 于 训 
练 的 特征 向 量 空间 维 数 为 1 409。 为 了 所 有 特征 项 都 有 
被 选取 到 的 可 能 ， 对 原 有 特征 集 进行 50 次 随机 采样 ， 
即 特征 项 被 划分 为 50 个 特征 子 集 , 那么 训练 得 到 的 基 
分 类 器 个 数 也 为 50。 

粒子 群 优化 算法 中 , 适应 值 函 数 采用 系统 分 类 准 
确 率 。 为 了 考察 群 中 粒子 个 数 对 文本 分 类 准确 率 和 差 
异 度 的 影响 , 设置 粒子 个 数 分 别 为 10、20、30、40、 
50, 60, 70, 80, 90, 100 进行 比较 , 迭代 次 数 设 为 
100， 学 习 因 子 a =c =2, 惯性 权重 采用 线性 迭代 
w min 20.1, w max = 0.6 。 由 于 粒子 群 初始 值 的 随机 
性 , 实验 结果 取 20 次 平均 值 作为 最 终结 果 。 


5 实验 结果 及 分 析 


51 分 类 准确 率 结果 及 分 析 
对 不 同 子 空间 率 取 值 下 的 标准 RS 和 RS_BPSO 
下 按照 实验 流程 进行 计算 ,三 个 数据 集 的 实验 结果 分 
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别 如 表 4- 表 6 所 示 。 其 中 ,RS_BPSO 的 分 类 准确 率 
结果 一 列 中 括号 里 标注 了 优化 选择 后 的 平均 基 分 类 
器 个 数 。 

表 4 酒店 评论 数据 分 类 准确 率 比 较 


别 为 24、29、28、22 个 , 在 原 有 基 分 类 器 个 数 上 平均 
减少 19 个 左右 。 比 较 不 同 大 取 值 下 的 分 类 准确 率 , 没 
有 发 现 统一 的 规律 性 。 

表 6 笔记 本 电脑 评论 数据 分 类 准确 率 比 较 


k RS RS BPSO k RS RS BPSO 
0.01 0.6825 0.8342(17) 0.01 0.7867 0.8517(24) 
0.02 0.7183 0.8013(14) 0.02 0.8267 0.8762(29) 
0.03 0.7717 0.8293(13) 0.03 0.8067 0.8717(28) 
0.05 0.8075 0.8429(19) 0.05 0.8233 0.8634(22) 


X 4 是 酒店 评论 数据 分 类 准确 率 结果 。 可 以 看 出 ， 
RS_BPSO 得 到 的 分 类 准确 率 均 比 标准 随机 子 空间 方 
法 高 , 且 高 出 幅度 达到 3%-15%。 最 高 分 类 准确 率 达 到 
84.29%。 经 过 BPSO 算法 选择 后 的 基 分 类 器 个 数 分 别 
为 17、14、13 19 个 , 在 原 有 基 分 类 器 个 数 上 平均 减 
少 34 个 左右 。 比 较 不 同 大 取 值 下 的 分 类 准确 率 , 在 标 
准 随机 子 空间 方法 中 ， 随 着 子 空间 率 k 值 的 增 大 , 分 
类 准确 率 呈 现 递 增 趋势 , 但 经 过 离散 二 进 制 粒子 群 算 
法 进行 基 分 类 器 的 选择 后 ， 分 类 准确 率 提高 , 但 与 k 
的 取 值 没 有 相关 规 得 

表 5 图 书评 论 数据 分 类 准确 率 比较 


T 
o 


k RS RS BPSO 
0.01 0.6867 0.8270(19) 
0.02 0.7033 0.8434(19) 
0.03 0.7633 0.8208(20) 
0.05 0.785 0.8325(21) 


K 5 是 图 书评 论 数据 分 类 准确 率 结果 。 从 表 5 中 
数据 得 出 的 结论 来 看 与 表 4 结论 一 致 。RS_BPSO 得 到 
的 分 类 准确 率 均 比 标准 随机 子 空 间 方 法 高 ， 且 高 出 幅 
度 达 到 5%-14%。 最 高 分 类 准确 率 达 到 84.34%。 经 过 
BPSO 算法 选择 后 的 基 分 类 器 个 数 分 别 为 19、19、20、 
21 个 , 在 原 有 基 分 类 器 个 数 上 平均 减少 30 个 左右 。 随 
着 子 空间 率 & 值 的 增 大 , 标准 随机 子 空 间 方法 中 分 类 
准确 率 呈 现 递增 趋势 , 但 经 过 离散 二 进 制 粒 子 群 算法 
进行 基 分 类 器 的 选择 后 ， 分 类 准确 率 提高 , 但 没有 呈 
现 与 上 的 取 值 相关 的 趋势 。 

表 6 是 笔记 本 电脑 评论 数据 分 类 准确 率 结果 。 
RS_BPSO 得 到 的 分 类 准确 率 均 比 标准 随机 子 空间 方 
法 高 , 且 高 出 幅度 在 4%-7% 之 间 。 最 高 分 类 准确 率 达 
到 87.62%。 经 过 BPSO 算法 选择 后 的 基 分 类 器 个 数 分 
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从 以 上 三 个 数据 集 在 分 类 准确 率 上 的 对 比 ， 可 以 
得 出 结论 : 基于 BPSO 的 随机 子 空间 方法 可 明显 提高 
标准 随机 子 空间 方法 分 类 准确 率 。 在 标准 随机 子 空间 
方法 中 , 分 类 准确 率 随 着 子 空间 率 的 取 值 增 大 而 提 
高 , 在 基于 RS_BPSO 中 影响 不 大 ,经 过 BPSO 算法 进 
行 选择 后 的 基 分 类 器 的 使 用 个 数 明显 减少 ,对 提高 分 
类 系统 的 计算 速度 同时 减少 存储 时 间 有 很 大 的 好 处 。 
52 ”系统 差异 度 结果 及 分 析 

标准 RS 和 RS_BPSO 的 系统 差异 度 分 别 在 最 终 确 
定 的 基 分 类 器 对 每 个 测试 样本 的 输出 结果 上 计算 得 
到 ， 且 计算 了 4 种 不 同 的 差异 度 度量 值 。 表 7- 表 9 分 
别 为 酒店 评论 数据 、 图 书评 论 数 据 、 笔 记 本 电脑 评论 
数据 的 差异 度 度量 结果 。 

表 7 中 ,， 双 次 失败 度量 DF 的 度量 中 , RS_BPSO 
的 值 均 比 RS 高 ， 说明 RS_BPSO 的 差异 度 降 低 了 。 
而 在 不 一 致 度量 dis 中 ， 当 大 取 0.01、0.02 0.03 时 ， 
RS BPSO 的 dis 度量 均 比 RS 的 dis 度量 高 。 根据 不 
一 致 度量 的 计算 原理 ， 当 dis 值 越 大 ， 系 统 差 异 度 程 
度 越 高 。 而 0 统计 和 相关 系数 p 在 计算 原理 上 有 一 
致 的 趋势 。 从 分 析 数 据 来 看 , RS_BPSO 的 o 统计 数 
据 和 相关 系数 均 低 于 了 RS。 根据 O 统计 和 相关 系数 p 
的 计算 原理 , DO 统计 和 相关 系数 o 数值 越 小 , 则 系统 
差异 度 程度 越 高 ,数据 结果 说 明 RS BPSO 有 较 高 的 

表 8 中 , 双 次 失败 度量 DF 的 度量 中 , RS_BPSO 与 
RS 的 数值 差别 不 大 , 差异 度 没有 明显 不 同 。 而 在 不 一 
SIUS t dis P, RS_BPSO 的 dis 度 量 均 比 RS 的 高 出 0.02 
到 0.04 不 等 , RS_BPSO 的 差异 度 程度 更 高 。 同 样 的 结 
论 在 2 统计 和 相关 系数 o 的 数据 结果 中 体现 得 更 为 明 
显 。RS_BPSO 的 2 统计 和 相关 系数 o 均 低 于 RS, 显 
然 , RS_BPSO 提高 了 系统 差异 度 。 
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表 7 酒店 评论 数据 集成 系统 差异 度 比较 
DF dis 0 统计 相关 系数 p 
RS RS_BPSO RS RS_BPSO RS RS_BPSO RS RS_BPSO 
0.01 0.3668 0.3715 0.4378 0.466 0.1507 0.0127 0.0972 0.0263 
0.02 0.4396 0.4437 0.3759 0.4153 0.3794 0.1699 0.1958 0.0864 
0.03 0.4677 0.4862 0.3718 0.379 0.3612 0.2837 0.179 0.136 
0.05 0.5289 0.5452 0.333 0.3266 0.4448 0.4434 0.2144 0.2099 
表 8 图 书评 论 数 据 集成 系统 差异 度 比 较 
DF dis Qt 相关 系数 p 
RS RS_BPSO RS RS_BPSO RS RS_BPSO RS RS_BPSO 
0.01 0.321 0.3174 0.4701 0.4963 0.0667 -0.0321 0.048 -0.0099 
0.02 0.3751 0.3834 0.4383 0.4585 0.1594 0.0477 0.0903 0.0351 
0.03 0.4094 0.4079 0.409 0.44 0.2615 0.1071 0.1368 0.0589 
0.05 0.4543 0.4576 0.3895 0.4115 0.2935 0.1663 0.1448 0.079 


表 9 中 , 可 以 得 到 和 表 8 同样 的 结论 。 双 次 失败 
度量 DF 的 度量 中 , RS_BPSO 比 RS 差别 不 大 , 差异 度 
没有 明显 差异 。 而 在 不 一 致 度量 dis 中 , RS_ BPSO 的 


dis 度量 均 比 RS 的 dis 度量 高 RS BPSO 的 差异 度 程 
度 高 。RS_BPSO 的 2 统计 和 相关 系数 p 均 低 于 RS, 
RS BPSO 的 差异 度 显 然 高 于 标准 特征 子 空间 方法 。 


ROIO 笔记 本 电脑 评论 文本 集成 系统 差异 度 比较 
: DF dis 0 统计 相关 系数 p 
RS RS_BPSO RS RS_BPSO RS RS_BPSO RS RS_BPSO 
0.01 0.3284 0.3271 0.4722 0.4986 0.0422 -0.0616 0.0399 -0.021 
0.02 0.3753 0.3796 0.4559 0.4629 0.0482 0.0233 0.061 0.0265 
0.03 0.4114 0.4073 0.428 0.441 0.1462 0.077 0.0875 0.057 
0.05 0.4731 0.4764 0.3879 0.3909 0.2504 0.2225 0.1276 0.1146 


为 了 更 加 直观 地 分 析 不 同 磊 取 值 下 标准 随机 子 空 
间 和 离散 二 进 制 粒子 群 随 机 子 空间 方法 的 差异 度 ， 图 
3 分 别 为 酒店 评论 数据 差异 度 对 比 图 、 图 书评 论 数 据 
差异 度 对 比 图 、 笔 记 本 电脑 评论 数据 差异 度 对 比 图 。 

从 图 3 可 以 看 出 , DF、2@ 统计 、 相 关系 数 p 呈现 
上 升 趋势 , 而 dis 呈现 下 降 趋 势 。4 种 差异 度 度量 得 出 
一 致 结论 , 随 着 取 值 的 增加 , 无 论 在 标准 随机 子 空 
间 方 法 还 是 在 RS BPSO 中 , 差异 度 都 呈现 递减 的 趋 
势 。 而 在 RS 5 RS BPSO 的 两 两 比较 中 , 双 次 失败 度 
量 DF. Q 统计 和 相关 系数 p 在 RS_BPSO 中 得 到 的 曲 
线 均 在 RS 的 曲线 之 上 , 不 一 致 度量 dis 则 相反 。 根 据 
其 计算 理论 ,得 出 一 致 结论 , RS BPSO 的 差异 度 高 于 
标准 随机 子 空间 方法 。 图 书评 论 数 据 和 笔记 本 电脑 评 
论 数据 都 得 出 与 酒店 评论 数据 一 样 的 结论 。 

从 以 上 分 析 得 出 结论 : 标准 随机 子 空间 方法 和 


RS BPSO 的 系统 差异 度 都 随 着 k 值 的 增加 而 降低 ， 
RS_BPSO 的 差异 度 明 显 高 于 标准 随机 子 空间 方法 。 
进而 说 明 RS_BPSO 的 泛 化 能 力 强 于 标准 随机 子 空 间 
方法 。 

而 与 分 类 准确 率 结果 比较 , 在 标准 随机 子 空间 方 
法 中 , 随 着 值 的 增加 , 分 类 准确 率 上 升 。 差 异 度 度量 
与 分 类 准确 率 呈 现 矛 盾 的 趋势 。 这 与 Chandra 等 提出 的 
想法 一 致 : 系统 分 类 器 准确 率 和 差异 度 之 间 存 在 一 个 
权衡 (Trade-OfDP "., 通过 负 相 关 集 成 学 习 理 论 提 出 多 目 
标 优 化 集成 学 习 ， 即 将 准确 率 和 差异 度 作 为 两 个 优化 
目标 , 用 来 作为 达到 准确 率 与 差异 度 权衡 的 一 个 策略 。 
而 男 一 部 分 文献 改进 了 现 有 差异 度 度量 方法 , 将 分 类 
器 准确 率 和 差异 度 组 合 起 来 构成 复合 差异 度 函 数 [1。 
构造 分 类 准确 率 与 系统 差异 度 集合 的 函数 作为 智能 算 
法 适应 度 函 数 也 将 取得 很 多 成 果 。 
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(c) 笔记 本 电脑 
—e— DF RS 一 * DF RS DPSO -—H— dis RS 
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- + p RS -© p RS_BPSO 


图 3 数据 集 差 异 度 比较 


鉴于 BPSO 算法 在 提高 分 类 准确 率 方面 对 大 值 的 
敏感 度 较 低 ,而 在 系统 差异 度 即 系统 泛 化 能 力 上 随 着 


0.80 
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(a) 最 好 适应 值 
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磊 值 增加 而 降低 , 则 最 佳 磊 值 应 选用 较 小 的 大 值 。 与 此 
同时 , 考虑 到 k 值 的 选取 是 基 分 类 器 训练 样本 文本 表 
示 特 征 维 数 的 确定 , 关系 到 基 分 类 器 训练 样本 特征 表 
示 ,， 基 分 类 器 准确 率 的 好 坏 依赖 于 样本 特征 表示 。 所 
以 ,大 值 的 选取 应 在 保证 基 分 类 器 一 定 准 确 率 的 情况 下 
选用 较 小 值 。 
5.3 BPSO 算法 优化 过 程 分 析 

(1) BPSO 收敛 性 分 析 

BPSO 收敛 性 是 指 随 着 迭代 次 数 的 增加 , 算法 的 
结果 与 真实 结果 的 误差 越 来 越 小 , 上 且 趋 近 于 一 个 固定 
值 。 收 敛 与 发 散 对 应 , 发 散 是 指 无 论 迭 代 次 数 多 大 ， 收 
敛 曲线 无 法 趋 于 定 值 。 

为 了 更 好 地 分 析 BPSO 算法 在 集成 学 习 随 机 子 空 
间 方 法 基 分 类 器 的 优化 性 能 ,对 BPSO 算法 的 收敛 性 
进行 分 析 。 对 BPSO 算法 的 100 次 迭代 得 到 的 最 好 适 
应 值 结果 和 平均 适应 值 结果 绘制 了 曲线 。 图 4- 图 6 分 
别 为 酒店 评论 数据 、 图 书评 论 数据 、 笔 记 本 电脑 评论 
数据 的 适应 值 对 迭代 次 数 的 变化 图 。 

从 图 4 可 以 看 出 , 酒店 评论 数据 文本 情感 分 类 最 
好 适应 值 随 着 迭代 次 数 的 增加 而 不 断 地 增长 , 说 明 分 
类 误差 越 来 越 小 , 逐渐 趋 近 于 0。 而 平均 适应 值 虽 然 局 
部 出 现 震 荡 但 整体 呈现 向 分 类 准确 率 最 大 值 逼 近 的 趋 
势 , 说 明 BPSO 算法 在 随机 子 空间 基 分 类 器 的 优化 选 
择 中 收敛 性 很 好 。 

从 图 5 可 以 看 出 , 图 书评 论 数据 文本 情感 分 类 最 
好 适应 值 随 着 迭代 次 数 的 增加 而 不 断 地 增长 ， 而 平 
均 适 应 值 虽然 局 部 出 现 震 荡 但 在 整体 趋势 上 依然 呈 
现 上 升 趋势 。 
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图 4 酒店 评论 数据 适应 值 对 迭代 次 数 的 变化 
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图 5 图 书评 论 数据 适应 值 对 选 代 次 数 的 变化 


如 图 6 所 示 , 笔记 本 电脑 评论 数据 文本 情感 分 类 
适应 值 函 数 随 着 迭代 次 数 的 增加 而 呈现 不 断 上 升 趋 
势 , 平均 适应 度 函 数值 整体 呈现 上 升 趋 势 。 
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从 以 上 分 析 可 以 得 出 , BPSO 算法 在 以 文本 情感 
分 类 准确 率 为 目标 适应 值 函数 时 的 收敛 性 很 好 ,可 以 
提高 原 有 分 类 准确 率 。 
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图 6 笔记 本 电脑 评论 数据 适应 值 对 和 迭代 次 数 的 变化 


Q) 粒子 个 数 对 分 类 结果 的 影响 


并 调整 自己 的 方向 和 速度 ,因此 时 间 代 价 也 会 很 高 。 


以 上 均 是 粒子 群 个 数 为 50 的 分 类 结果 ， 为 了 探索 
不 同 的 粒子 数 对 文本 情感 分 类 的 影响 ,分 别 采用 粒子 
群 个 数 为 10、20、30、40、50、60、70、80、90、100 
进行 实验 。 图 7 是 以 笔记 本 电脑 评论 数据 集 为 例 给 出 
的 分 类 准确 率 随 粒子 数目 变化 趋势 图 。 粒 子 数 目 取 30 
时 , 分 类 准确 率 达 到 最 高 。 在 粒子 群 算法 优化 过 程 中 ， 
粒子 数量 对 集成 系统 的 效果 有 一 定 的 影响 。 一 般 情况 
下 , 集成 系统 的 性 能 会 随 着 粒子 数量 的 增 大 而 有 所 提 
高 。 粒 子 数目 越 多 , 其 搜索 到 全 局 最 优 区 域 的 速度 更 
快 , 相反 如 果 粒 子 数 越 少 ,搜索 时 间 可 能 更 长 。 同 时 ， 
粒子 群 过 少 , 陷入 局 部 最 优 的 可 能 性 则 越 大 ,但 是 , 粒 
子 数目 过 多 时 ,由 于 每 个 粒子 都 要 重复 计算 适应 度 值 


可 以 看 出 , 在 文本 情感 分 类 问题 中 , 30 个 粒子 达到 最 
好 分 类 准确 率 , 而 随 着 粒子 数目 的 增加 , 分 类 准确 率 
有 轻微 的 下 降 趋势 。 而 在 酒店 评论 数据 、 图 书评 论 数 
据 上 也 得 到 相同 的 结论 。 因 此 , 在 本 实验 数据 的 规模 
上 ,粒子 数目 选择 30 左右 比较 合适 。 

通过 以 上 对 标准 随机 子 空间 和 BPSO 随机 子 空间 
两 种 方法 在 分 类 准确 率 上 的 比较 和 分 析 、 对 集成 系统 
差异 度 的 影响 和 分 析 以 及 BPSO 算法 的 优化 过 程 进行 
分 析 , 可 以 得 出 结论 , RS_BPSO 分 类 准确 率 在 标准 随 
机 子 空间 方法 上 提高 了 3%-15%， 系 统 差 异 度 上 也 得 
到 明显 提高 。 RS_BPSO 的 使 用 减少 了 分 类 预测 系统 的 
基 分 类 器 个 数 ， 对 提高 分 类 系统 的 计算 速度 同时 减少 
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粒子 个 数 
图 7 笔记 本 电脑 数据 集 上 粒子 数目 与 分 类 
准确 率 趋 势 图 (j=0.01) 


存储 空间 有 很 大 的 帮助 。 同 时 发 现 , 子 空间 率 的 取 值 
本 来 是 标准 随机 子 空间 方法 中 准确 率 和 差异 度 难以 调 
和 的 参数 , 但 经 过 BPSO 算法 后 , 子 空间 率 不 再 影响 
分 类 准确 率 , 而 只 与 系统 差异 度 有 关 。 根 据 系统 差异 
度 对 子 空间 率 的 变化 趋势 , 子 空间 率 的 选取 规则 应 为 
在 给 定数 值 范围 内 选择 较 小 值 。 对 BPSO 在 基 分 类 器 
个 数 的 优化 选择 过 程 中 的 收敛 性 分 析 , 说 明 BPSO 算 
法 可 以 很 好 地 应 用 于 随机 子 空间 方法 中 。RS_BPSO 在 
标准 随机 子 空间 方法 上 提高 了 分 类 准确 率 。 


6 结 语 


文本 情感 分 类 技术 在 电子 商务 、 电 子 政务 、 信 息 
预测 等 领域 有 重要 的 应 用 价值 。 针 对 中 文 文本 情感 表 
达 多 样 性 和 隐 星 性 的 特点 ,以 依存 句法 解析 特征 表示 
为 基础 ,提出 基于 BPSO 的 随机 子 空间 集成 分 类 方法 。 
随机 子 空 间 方 法 以 划分 特征 的 方式 形成 个 体 分 类 器 的 
训练 数据 , 一定 程度 上 降低 了 训练 模型 中 数据 输入 的 
维度 。BPSO 作为 选择 性 机 制 ， 既 提高 了 集成 系统 的 分 
类 准确 率 也 保证 了 系统 的 泛 化 能 力 。 同 时 , 对 比 研 究 
子 空间 率 对 标准 随机 子 空间 和 BPSO 随机 子 空间 方法 
的 分 类 准确 率 和 系统 差异 度 的 影响 , 得 出 了 BPSO 随 
机 子 空间 方法 中 子 空间 率 选 值 的 一 般 规律 。 

在 未 来 研究 中 , 一 方面 会 搜集 更 多 的 数据 集 包 括 
英文 数据 集 进一步 验证 本 文 的 结论 ; 男 一 方面 针对 本 
文 已 得 到 的 结论 , 构造 更 适合 文本 情感 分 类 的 类 模型 。 
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Classifying Sentiments Based on BPSO Random Subspace 


Zhang Qingqing™? Liu Xilin? 
(School of Management, Xi'an Polytechnic University, Xi’an 710048, China) 
“School of Management, Northwestern Polytechnical University, Xi'an 710129, China) 


Abstract: [Objective] This paper aims to solve the issue of representing high dimensional features in Chinese 
sentiment analysis, with the help of RS BPSO, a selective ensemble algorithm. [Methods] First, we developed the 
framework and algorithm of the proposed RS BPSO model based on the theory of Random Subspace and Binary 
Particle Optimization. Then, we transformed the Chinese review corpus into structured feature vectors and examined 
the new model. [Results] We found that the diversity and accuracy of the RS. BPSO model better than the standard RS 
model. [Limitations] We did not run the proposed model with corpus in foreign languages. [Conclusions] The 
RS BPSO model could be an effective method to classify Chinese sentiments. 
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